14 research outputs found
Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU
Although large language models (LLMs) are often pre-trained on large-scale
multilingual texts, their reasoning abilities and real-world knowledge are
mainly evaluated based on English datasets. Assessing LLM capabilities beyond
English is increasingly vital but hindered due to the lack of suitable
datasets. In this work, we introduce IndoMMLU, the first multi-task language
understanding benchmark for Indonesian culture and languages, which consists of
questions from primary school to university entrance exams in Indonesia. By
employing professional teachers, we obtain 14,981 questions across 64 tasks and
education levels, with 46% of the questions focusing on assessing proficiency
in the Indonesian language and knowledge of nine local languages and cultures
in Indonesia. Our empirical evaluations show that GPT-3.5 only manages to pass
the Indonesian primary school level, with limited knowledge of local Indonesian
languages and culture. Other smaller models such as BLOOMZ and Falcon perform
at even lower levels.Comment: Accepted at EMNLP 202
Bactrian-X : A Multilingual Replicable Instruction-Following Model with Low-Rank Adaptation
Instruction tuning has shown great promise in the field of natural language
processing. However, the research on multilingual instruction tuning has been
limited due to the scarcity of high-quality instruction-response datasets. To
address this gap, we present Bactrian-X, a comprehensive multilingual parallel
dataset of 3.4 million instruction-response pairs across 52 languages.
Leveraging this dataset, we train a set of adapters using low-rank adaptation
(LoRA), which are lightweight components seamlessly integrated with
foundational models. These adapters have a significantly smaller parameter
count than the base model, making them easily replaceable and usable as
plug-ins for different languages or language groups. Through extensive
experiments on 52 languages, we demonstrate the superior performance of our
models in various multilingual evaluation settings. Our proposed models
outperform both the vanilla models and the existing instruction-tuned models.
The code and models are publicly available at
https://github.com/mbzuai-nlp/bactrian-x
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages
Democratizing access to natural language processing (NLP) technology is
crucial, especially for underrepresented and extremely low-resource languages.
Previous research has focused on developing labeled and unlabeled corpora for
these languages through online scraping and document translation. While these
methods have proven effective and cost-efficient, we have identified
limitations in the resulting corpora, including a lack of lexical diversity and
cultural relevance to local communities. To address this gap, we conduct a case
study on Indonesian local languages. We compare the effectiveness of online
scraping, human translation, and paragraph writing by native speakers in
constructing datasets. Our findings demonstrate that datasets generated through
paragraph writing by native speakers exhibit superior quality in terms of
lexical diversity and cultural content. In addition, we present the
\datasetname{} benchmark, encompassing 12 underrepresented and extremely
low-resource languages spoken by millions of individuals in Indonesia. Our
empirical experiment results using existing multilingual large language models
conclude the need to extend these models to more underrepresented languages. We
release the NusaWrites dataset at https://github.com/IndoNLP/nusa-writes
KESERASIAN SOSIAL DAN POLITIK DALAM MASYARAKAT “BERBILANG KAUM” DI KOTA SIBOLGA
Tujuan penelitian ini untuk melihat sejauh mana implementasi konstruksi keragaman masyarakat Indonesia di Kota Sibolga yang dikenal sebagai “Negeri Berbilang Kaum”.Metode yang digunakan dalam penelitian ini adalah jenis penelitian deskriptif dengan pendekatan kualitatif. Hasil penelitian menunjukkan, bahasa pesisir sebagai bahasa pemersatu diantara etnis yang berbeda, sehingga keberadaan bahasa pesisir tersebut dapat mendukung terciptanya masyarakat yang serasi dan rukun. Kondisi keserasian sosial ini juga terlihat dari adanya Adat Sumando sebagai adat pemersatu dalam setiap perkawinan yang dilakukan. Adat Sumando adalah pertambahan atau percampuran satu keluarga dengan keluarga lain yang seagama, yang diikat dengan tali pernikahan menurut hukum Islam dan disahkan dengan suatu acara adat Pesisir. Adat ini merupakan campuran dari hukum Islam, adat Minangkabau, dan adat Batak. Keberadaan Adat Sumando inilah yang membuat kota ini menjadi lebih unik, dimana ketika etnis Batak yang sudah masuk ke dalam Adat Sumando yang notabene beragama Islam, maka marga yang ada tetap dipakai. Hal inilah membuat masyarakat yang bermarga Batak tetapi beretnis Pesisir. Dari hasil penelitian ini juga menunjukan bahwa ada beberapa faktor pendukung terciptanya keserasian sosial dalam masyarakat multi etnis di Kota Sibolga sebagai berikut: Pertama; faktor historis, dimana sejak berdirinya kota ini telah ramai di kunjungi oleh pendatang dari berbagai daerah dan beragam etnis yang terjalin dalam interaksi sosial yang harmonis sehingga menjadikan kota ini sebagai kota yang dinamis dan terbuka serta menjadi kota yang mapan dalam mengelola masyarakat yang harmonis dalam keberagaman (harmony in diversity). Kedua; faktor adaptasi, dimana kemampuan masyarakat yang tinggal di kota ini dalam menguasai bahasa Pesisir dalam berinteraksi sehari-hari, sehingga kemampuan adaptif inilah yang membuat masyarakat hidup serasi dan rukun. Ketiga; faktor demografi dan pola pemukiman, dimana dengan kepadatan penduduk yang cukup tinggi di kota ini mengakibatkan pola pemukiman membaur yang cenderung meniadakan garis pemisah (border line) atau mereduksi komunikasi yang terbatas, sehingga dapat meningkatkan interaksi dan kontak sosial yang semakin intens